n-gram
# Tag:
- Source/KU_ML2
n-gram
개의 이전 단어를 보고 그 다음 단어를 예측하는, 확률 기반의 모델.
위의 확률에 따라서, 몇 개()까지의 이전 단어를 볼 것인지에 따라 다음 단어()의 확률을 근사화 하여 계산한다.
n-gram
보통 은 의미가 없도록 '' 과 같은 빈 문자열로 처리한다.
만약, 다음 단어가 문법적으로 틀리다면, 학습 데이터에는 그러한 문법적으로 틀린 개의 단어가 붙어 있게 구성되어 있을 확률이 적으므로 해당 단어는 확률이 작게 나올 것이다.
problem
- 이 fixed 되어 있으므로, 멀리 떨어진 단어 간의 중요도를 반영하지 못한다.
- 또한, 문장 속에서 단어 수가 변하게 되면 이에 맞춰 반영되지 못한다.